其他
大模型分布式训练性能优化与实践
介绍百度百舸AIAK 在模型训练领域的工作成果,以及针对大模型训练的解决方案。随后我们将聚焦大模型训练性能优化的关键技术原理,分析常见的分布式并行策略,拆解性能优化的主要技术,以及百度智能云的具体工程实践方法等。此外,我们还将讨论面向未来的一些探索工作,如针对算力、模型、规模等不断变化的需求,如何进行自适应的分布式训练,使模型训练门槛更低,效率更高。
百度百舸·AI异构计算平台
AIAK-Training,加速常规CV/NLP等小模型训练
ChatGPT 引爆大语言模型发展,模型生态爆发
https://arxiv.org/abs/2303.18223
AIAK-Training-LLM,加速主流开源大语言模型训练
并行策略 - 单卡到分布式,数据切分到模型切分
并行策略 - Megatron 流水线并行
并行策略 – Megatron 流水线并行,优化 Bubble 的方案
并行策略 - 数据并行,优化梯度通信,提升DP 扩展性
模型训练中的主要显存占用:参数、梯度、优化器、激活
来源: https://qcon.infoq.cn/202309/beijing/presentation/5503